如今,元数据信息通常由提交后由作者自己提供。然而,已经存在的研究论文的重要部分缺失或不完整的元数据信息。德国科学论文有很大种类的布局,使得元数据提取一个非琐碎的任务,这需要一个精确的方法来对文档中提取的元数据进行分类。在本文中,我们提出了德语科学论文的元数据提取多模式深度学习方法。通过组合自然语言处理和图像视觉处理,我们考虑多种类型的输入数据。与其他最先进的方法相比,该模型旨在提高元数据提取的整体准确性。它能够利用空间和上下文特征,以实现更可靠的提取。我们的这种方法的模型受到约会,包括大约8800个文件的数据集,并且能够获得0.923的总体F1分数。
translated by 谷歌翻译